本文从未分割的烹饪视频中解决了食谱生成,该任务要求代理(1)提取完成盘子时提取关键事件,以及(2)为提取的事件生成句子。我们的任务类似于密集的视频字幕(DVC),该字幕旨在彻底检测事件并为其生成句子。但是,与DVC不同,在食谱生成中,食谱故事意识至关重要,模型应以正确的顺序输出适当数量的关键事件。我们分析了DVC模型的输出,并观察到,尽管(1)几个事件可作为食谱故事采用,但(2)此类事件的生成句子并未基于视觉内容。基于此,我们假设我们可以通过从DVC模型的输出事件中选择Oracle事件并为其重新生成句子来获得正确的配方。为了实现这一目标,我们提出了一种基于变压器的新型训练事件选择器和句子生成器的联合方法,用于从DVC模型的输出中选择Oracle事件并分别为事件生成接地句子。此外,我们通过包括成分来生成更准确的配方来扩展模型。实验结果表明,所提出的方法优于最先进的DVC模型。我们还确认,通过以故事感知方式对食谱进行建模,提出的模型以正确的顺序输出适当数量的事件。
translated by 谷歌翻译
我们提出了一个名为“ Visual配方流”的新的多模式数据集,使我们能够学习每个烹饪动作的结果。数据集由对象状态变化和配方文本的工作流程组成。状态变化表示为图像对,而工作流则表示为食谱流图(R-FG)。图像对接地在R-FG中,该R-FG提供了交叉模式关系。使用我们的数据集,可以尝试从多模式常识推理和程序文本生成来尝试一系列应用程序。
translated by 谷歌翻译
The external visual inspections of rolling stock's underfloor equipment are currently being performed via human visual inspection. In this study, we attempt to partly automate visual inspection by investigating anomaly inspection algorithms that use image processing technology. As the railroad maintenance studies tend to have little anomaly data, unsupervised learning methods are usually preferred for anomaly detection; however, training cost and accuracy is still a challenge. Additionally, a researcher created anomalous images from normal images by adding noise, etc., but the anomalous targeted in this study is the rotation of piping cocks that was difficult to create using noise. Therefore, in this study, we propose a new method that uses style conversion via generative adversarial networks on three-dimensional computer graphics and imitates anomaly images to apply anomaly detection based on supervised learning. The geometry-consistent style conversion model was used to convert the image, and because of this the color and texture of the image were successfully made to imitate the real image while maintaining the anomalous shape. Using the generated anomaly images as supervised data, the anomaly detection model can be easily trained without complex adjustments and successfully detects anomalies.
translated by 谷歌翻译
To ensure the safety of railroad operations, it is important to monitor and forecast track geometry irregularities. A higher safety requires forecasting with a higher spatiotemporal frequency. For forecasting with a high spatiotemporal frequency, it is necessary to capture spatial correlations. Additionally, track geometry irregularities are influenced by multiple exogenous factors. In this study, we propose a method to forecast one type of track geometry irregularity, vertical alignment, by incorporating spatial and exogenous factor calculations. The proposed method embeds exogenous factors and captures spatiotemporal correlations using a convolutional long short-term memory (ConvLSTM). In the experiment, we compared the proposed method with other methods in terms of the forecasting performance. Additionally, we conducted an ablation study on exogenous factors to examine their contribution to the forecasting performance. The results reveal that spatial calculations and maintenance record data improve the forecasting of the vertical alignment.
translated by 谷歌翻译
已显示迅速学习可以在大多数文本分类任务中实现近调调节性能,但很少有培训示例。对于样品稀缺的NLP任务是有利的。在本文中,我们试图将其应用于实际情况,即恢复信息提取,并增强现有方法,以使其更适用于简历信息提取任务。特别是,我们根据简历的文本特征创建了多组手动模板和语言器。此外,我们比较了蒙版语言模型(MLM)预培训语言模型(PLM)和SEQ2SEQ PLM在此任务上的性能。此外,我们改进了口头设计的设计方法,用于知识渊博的及时调整,以便为其他基于应用程序的NLP任务的迅速模板和语言设计的设计提供了示例。在这种情况下,我们提出了手动知识渊博的语言器(MKV)的概念。构造与应用程序方案相对应的知识渊博的口头表的规则。实验表明,基于我们的规则设计的模板和言语器比现有的手动模板更有效,更强大,并自动生成及时方法。已经确定,当前可用的自动提示方法无法与手动设计的及时模板竞争一些现实的任务方案。最终混淆矩阵的结果表明,我们提出的MKV显着解决了样本不平衡问题。
translated by 谷歌翻译
连接派时间分类(CTC)的模型在自动语音识别(ASR)方面具有吸引力,因为它们的非自动性性质。为了利用仅文本数据,语言模型(LM)集成方法(例如重新纠正和浅融合)已被广泛用于CTC。但是,由于需要降低推理速度,因此他们失去了CTC的非自动性性本质。在这项研究中,我们提出了一种使用电话条件的蒙版LM(PC-MLM)的误差校正方法。在提出的方法中,掩盖了来自CTC的贪婪解码输出中的较不自信的单词令牌。然后,PC-MLM预测这些蒙版的单词令牌给定的单词和手机补充了CTC。我们进一步将其扩展到可删除的PC-MLM,以解决插入错误。由于CTC和PC-MLM均为非自动回旋模型,因此该方法可以快速LM集成。在域适应设置中对自发日本(CSJ)和TED-LIUM2语料库进行的实验评估表明,我们所提出的方法在推理速度方面优于重新逆转和浅融合,并且在CSJ上的识别准确性方面。
translated by 谷歌翻译
Connectionist时间分类(CTC)的模型很有吸引力,因为它们在自动语音识别(ASR)中的快速推断。语言模型(LM)集成方法(例如浅融合和重新恢复)可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是,它们大大减慢了CTC的推论。在这项研究中,我们建议提炼基于CTC的ASR的BERT知识,从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识,并且在测试过程中不使用BERT,从而维持CTC的快速推断。与基于注意力的模型不同,基于CTC的模型做出了框架级预测,因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语(CSJ)和TED-LIUM2语料库的实验评估表明,我们的方法改善了基于CTC的ASR的性能,而无需推理速度成本。
translated by 谷歌翻译
粒子过滤是针对多种顺序推断任务的标准蒙特卡洛方法。粒子过滤器的关键成分是一组具有重要性权重的粒子,它们可以作为某些随机过程的真实后验分布的代理。在这项工作中,我们提出了连续的潜在粒子过滤器,该方法将粒子过滤扩展到连续时域。我们证明了如何将连续的潜在粒子过滤器用作依赖于学到的变异后验的推理技术的通用插件替换。我们对基于潜在神经随机微分方程的不同模型家族进行的实验表明,在推理任务中,连续时间粒子滤波在推理任务中的卓越性能,例如似然估计和各种随机过程的顺序预测。
translated by 谷歌翻译
信息提取(IE)一直是NLP的重要任务之一。此外,信息提取的最关键应用程序方案之一是简历的信息提取。通过对简历的每个部分进行分类来获得构造的文本。存储这些文本以供以后进行搜索和分析很方便。此外,构造的简历数据也可以在AI简历筛选系统中使用。大大降低人力资源的劳动成本。这项研究旨在将简历的信息提取任务转变为简单的句子分类任务。基于先前研究生产的英语简历数据集。改进了分类规则,以创建简历的更大,更细粒度的分类数据集。该语料库还用于测试一些当前主流培训语言模型(PLMS)性能。Furthermore,为了探索培训样本数量与简历数据集的正确性率之间的关系,我们还与培训进行了比较实验一组不同的火车集尺寸。最终的多个实验结果表明,具有改进的注释规则和数据集的样本大小的简历数据集提高了原始简历数据集的准确性。
translated by 谷歌翻译
充分感知环境是机器人运动产生的关键因素。尽管引入深层视觉处理模型有助于扩展这种能力,但现有的方法缺乏积极修改感知内容的能力。人类在视觉认知过程中进行内部性能。本文通过提出一种新的机器人运动生成模型来解决问题,灵感来自人类的认知结构。该模型结合了一个由州驱动的主动自上而下的视觉注意模块,该模块获得了可以根据任务状态积极改变目标的注意事项。我们将这种注意力称为基于角色的注意力,因为获得的注意力集中在整个运动中共有连贯作用的目标。该模型经过了机器人工具使用任务的训练,在该任务中,基于角色的专注分别在对象拾取和对象拖动运动过程中将机器人抓手和工具视为相同的最终效果。这类似于一种称为工具体同化的生物学现象,其中一个人将处理工具视为身体的扩展。结果表明,模型的视觉感知的灵活性有所提高,即使为其提供了未经训练的工具或暴露于实验者的分心,也可以持续稳定的注意力和运动。
translated by 谷歌翻译